Day 02 - What is Machine Learning - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 2

自我挑戰組

Day 02 - What is Machine Learning

15th鐵人賽

596 瀏覽

Functions describe the world!
──by Thomas Garrity

screenshotted from IAS YouTube Video

函數能夠表達世界上的任何事情。只要我們能夠有足夠多的參數，無論是物體下一刻會在哪個地方、幾分鐘後會下雨、一週後的股價，這些都是能夠透過一個函數得知的。

在過去機器學習尚未出現的階段，人們會試圖減少問題當中存在的參數，或是創造一個理論上的狀態，去思考簡化後的問題會得出怎樣的答案。而在電腦出現後，人們開始把解決問題的方法變成一套 演算法，接下來交由電腦來找出答案。

不過，並不是所有的問題都能夠如此輕易被化簡，並沒有一套邏輯能夠直接地解出答案。例如將日語翻譯成中文這種定義較明確的問題，或是選擇考試或推甄哪個對未來比較好這種模稜兩可的問題，往往我們無法設計出一個好的算法。

反過來說，如果一個函數盡可能地複雜，那就有辦法表達世界上的任何答案。

機器學習本質上就是一個十分複雜的函數。透過這些過分複雜的關係，試圖去近似到目標問題的函數。

所以現在我們不去思考怎麼解決問題本身，而是思考如何設計一個足夠複雜、又能在任意情況下解決問題的模型。

舉例來說，我們想分類收到的郵件是否為垃圾信件。

想法一：
我們去觀察一下垃圾郵件具有怎樣的特徵，只要新的郵件符合垃圾郵件普遍具有的特徵，那就可以歸類為垃圾郵件。
想法二：
我們蒐集一下郵件，把這些郵件標上是否為垃圾郵件的標記。接下來交給機器去看這些郵件，期待它能夠找到分類成垃圾郵件/不是垃圾郵件的規則。
想法三：
我們蒐集一下郵件，直接交給機器來看，看看它會不會發現這些郵件存在哪些關係，也許意外能找到這些郵件當中存在的一些模式(Pattern)，就可以拿來分類了。
想法四：
定義是否為垃圾郵件的是人類，那就讓人自己分辨就好

想法一如同專家系統，試圖以人去找到垃圾郵件的特徵，然後嘗試寫下程式判斷這些特徵是否存在。但往往過於耗時且難以與時俱進，並不是一個好作法。

想法二如同監督式學習，試圖標記資料，然後嘗試撰寫出一個機器模型，讓機器依照這些標記好的資料"學習"。這也就是在這次系列文章中會大大探討的領域。

想法三如同非監督式學習，只蒐集而不標記資料，然後嘗試撰寫一個機器模型，讓機器自己"學習"怎麼把這些資料分類。

想法四如同工人智慧，直接交給人來解決，有時會在一些權衡下認為人比機器還便宜的狀況下看到(X

像這種郵件的問題，我們可以當成是 分類問題(Classification Problem) ，畫在圖上就像這樣。